大多数知识图(kgs)是不完整的,这激发了一个重要的研究主题,以自动补充知识图。但是,对知识图完成(KGC)模型的评估通常会忽略不完整性 - 测试集中的事实对所有未知三重态进行了排名,这些三胞胎可能包含大量不包括KG中的丢失事实。将所有未知的三胞胎视为false被称为封闭世界的假设。这种封闭世界的假设可能会对评估指标的公平性和一致性产生负面影响。在本文中,我们研究了在更现实的环境下的KGC评估,即开放世界的假设,其中未知的三胞胎被认为包括许多未包含在培训或测试集中的缺失事实。对于当前最常用的指标,例如平均值等级(MRR)和HITS@K,我们指出,在开放世界假设下,它们的行为可能是出乎意料的。具体而言,由于没有太多缺失的事实,它们的数字就模型的真实强度显示出对数趋势,因此,在反映真正的模型改进方面,度量增加可能微不足道。此外,考虑到这一方差,我们表明报告数字中的降解可能会导致不同模型之间的不正确比较,因为更强的模型可能具有较低的度量。我们在理论上和实验上都验证了现象。最后,我们建议解决此问题的可能原因和解决方案。我们的代码和数据可在https://github.com/graphpku/open-world-kg上找到。
translated by 谷歌翻译
深处神经网络(例如Deep-FSMN)已被广泛研究以用于关键字发现(KWS)应用。但是,这些网络的计算资源通常受到重大限制,因为它们通常在边缘设备上在通话中运行。在本文中,我们提出了BIFSMN,这是KWS的准确且极高的二元神经网络。我们首先为二进制化训练构建了高频增强蒸馏方案,该方案强调了全优先网络表示的高频信息,这对于对二进制网络的优化更为重要。然后,为了在运行时允许即时和自适应的准确性效率折衷,我们还提出了一个可稀薄的二进制架构,以从拓扑角度进一步解放二进制网络的加速潜力。此外,我们在ARMV8设备上为BIFSMN实施了快速的位计算内核,该内核充分利用了寄存器并增加了指令吞吐量以突破部署效率的极限。广泛的实验表明,BIFSMN通过说服各种数据集的利润率优于现有的二进制方法,甚至与全精度对应物相当(例如,语音命令v1-12下降少于3%)。我们强调的是,BIFSMN受益于稀薄的体系结构和优化的1位实现,可以在现实世界中的Edge硬件上实现令人印象深刻的22.3倍加速和15.5倍的存储空间。
translated by 谷歌翻译
密集的预期旨在预测未来的行为及其持续的持续时间。现有方法依赖于完全标记的数据,即标有所有未来行动及其持续时间的序列。我们仅使用少量全标记的序列呈现(半)弱监督方法,主要是序列,其中仅标记即将到来的动作。为此,我们提出了一个框架,为未来的行动及其持续时间产生伪标签,并通过细化模块自适应地改进它们。仅考虑到即将到来的动作标签作为输入,这些伪标签指南对未来的动作/持续时间预测。我们进一步设计了注意力机制,以预测背景感知的持续时间。早餐和50salads基准测试的实验验证了我们的方法的效率;与完全监督最先进的模型相比,我们竞争甚至。我们将在:https://github.com/zhanghaotong1/wslvideodenseantication提供我们的代码。
translated by 谷歌翻译
模型二进制化是一种压缩神经网络并加速其推理过程的有效方法。但是,1位模型和32位模型之间仍然存在显着的性能差距。实证研究表明,二进制会导致前进和向后传播中的信息损失。我们提出了一个新颖的分布敏感信息保留网络(DIR-NET),该网络通过改善内部传播和引入外部表示,将信息保留在前后传播中。 DIR-NET主要取决于三个技术贡献:(1)最大化二进制(IMB)的信息:最小化信息损失和通过重量平衡和标准化同时同时使用权重/激活的二进制误差; (2)分布敏感的两阶段估计器(DTE):通过共同考虑更新能力和准确的梯度来通过分配敏感的软近似来保留梯度的信息; (3)代表性二进制 - 意识蒸馏(RBD):通过提炼完整精确和二元化网络之间的表示来保留表示信息。 DIR-NET从统一信息的角度研究了BNN的前进过程和后退过程,从而提供了对网络二进制机制的新见解。我们的DIR-NET中的三种技术具有多功能性和有效性,可以在各种结构中应用以改善BNN。关于图像分类和客观检测任务的综合实验表明,我们的DIR-NET始终优于主流和紧凑型体系结构(例如Resnet,vgg,vgg,EfficityNet,darts和mobilenet)下最新的二进制方法。此外,我们在现实世界中的资源有限设备上执行DIR-NET,该设备可实现11.1倍的存储空间和5.4倍的速度。
translated by 谷歌翻译
最近,生成的数据无量子化作为一种​​实用的方法,将神经网络压缩到低位宽度而不访问真实数据。它通过利用其全精密对应物的批量归一化(BN)统计来生成数据来量化网络。然而,我们的研究表明,在实践中,BN统计的合成数据在分布和样品水平时严重均匀化,这导致量化网络的严重劣化。本文提出了一种通用不同的样本生成(DSG)方案,用于生成无数据的训练后量化和量化感知培训,以减轻有害的均质化。在我们的DSG中,我们首先将统计对齐缩写为BN层中的功能,以放宽分配约束。然后,我们加强特定BN层对不同样品的损失影响,并抑制了生成过程中样品之间的相关性,分别从统计和空间角度分别多样化样本。广泛的实验表明,对于大规模的图像分类任务,我们的DSG可以始终如一地优于各种神经结构上的现有数据无数据量化方法,尤其是在超低比特宽度下(例如,在W4A4设置下的22%的增益下)。此外,由我们的DSG引起的数据多样化引起了各种量化方法的一般增益,证明了多样性是无数据量化的高质量合成数据的重要特性。
translated by 谷歌翻译
量化已成为压缩和加速神经网络最普遍的方法之一。最近,无数据量化已被广泛研究作为实用和有前途的解决方案。它根据FP32批量归一化(BN)统计,合成校准量化模型的数据,并显着降低了传统量化方法中实际训练数据的沉重依赖性。不幸的是,我们发现在实践中,BN统计的合成数据在分配水平和样品水平上具有严重均匀化,并且进一步引起量化模型的显着性能下降。我们提出了各种样品生成(DSG)方案,以减轻均质化引起的不利影响。具体而言,我们松弛BN层中的特征统计的对准,以在分配水平处放宽约束,并设计一个层状增强,以加强针对不同的数据样本的特定层。我们的DSG方案是多功能的,甚至能够应用于现代训练后的训练后的量化方法,如亚马逊。我们评估大规模图像分类任务的DSG方案,并始终如一地获得各种网络架构和量化方法的显着改进,特别是当量化到较低位时(例如,在W4A4上的高达22%)。此外,从增强的多样性受益,综合数据校准的模型均接近通过实际数据校准的那些,甚至在W4A4上越优于它们。
translated by 谷歌翻译
下一代物理科学涉及机器人科学家 - 自主物理科学系统,能够在封闭环中实验设计,执行和分析。这样的系统已显示出对科学探索和发现的现实成功,包括首次发现一流的材料。为了构建和使用这些系统,下一代劳动力需要在不同领域的专业知识,包括ML,控制系统,测量科学,材料合成,决策理论等。但是,教育滞后。教育工作者需要一个低成本,易于使用的平台来教授所需的技能。行业还可以使用这样的平台来开发和评估自主物理科学方法论。我们介绍了科学教育的下一代,这是建立低成本自治科学家的套件。该套件在马里兰州大学的两门课程中用于教授本科和研究生自治物理科学。我们以自主模型探索,优化和确定的双重任务来讨论其在课程中的用途及其更大的能力,并以自主实验的“发现”为例。
translated by 谷歌翻译
本文旨在减少透明辐射场的渲染时间。一些最近的作品用图像编码器配备了神经辐射字段,能够跨越场景概括,这避免了每场景优化。但是,它们的渲染过程通常很慢。主要因素是,在推断辐射场时,它们在空间中的大量点。在本文中,我们介绍了一个混合场景表示,它结合了最佳的隐式辐射场和显式深度映射,以便有效渲染。具体地,我们首先构建级联成本量,以有效地预测场景的粗糙几何形状。粗糙几何允许我们在场景表面附近的几个点来样,并显着提高渲染速度。该过程是完全可疑的,使我们能够仅从RGB图像共同学习深度预测和辐射现场网络。实验表明,该方法在DTU,真正的前瞻性和NERF合成数据集上展示了最先进的性能,而不是比以前的最可推广的辐射现场方法快至少50倍。我们还展示了我们的方法实时综合动态人类执行者的自由观点视频。代码将在https://zju3dv.github.io/enerf/处提供。
translated by 谷歌翻译
量化是促进硬件友好的深度学习和在资源限制硬件上运行深层神经网络的有效方法。然而,它仍然对网络的准确性显着减少。我们总结了量化分为两类的挑战:对复杂场景的不同架构和量化的量化。我们的研究主要集中在各种架构和场景上应用量化,并推动量化极限,以极度压缩和加速网络。对量化的综合研究将实现更强大,更高效,更灵活的硬件友好的深度学习,并使其更适合更真实的应用。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译